当写代码变得不值钱之后

风格参考：万维钢（《精英日课》作者）—— 跨学科引证，框架式拆解，加粗关键洞察，用数据和类比交叉验证每个论点。

“软件开发正在从‘以写代码为中心’转向‘以编排写代码的智能体为中心’。” —— Anthropic，2026 Agentic Coding 趋势报告

引子：七个小时的独奏

2025 年，日本乐天集团做了一个实验。

他们让 Anthropic 的 Claude Code 在一个叫 vLLM 的开源项目里完成一项复杂的工程任务。vLLM 是一个用于大语言模型推理优化的框架，代码量在千万行级别。任务的复杂度相当于一个资深工程师需要数周才能完成的工作。

Claude Code 自主运行了 7 个小时，中间没有人类介入。

最终的产出达到了 99.9% 的数值精度。

这个案例不是我要讨论的重点——单个案例证明不了趋势。我真正想讨论的是：当这类案例开始批量出现时，软件工程这个行业的底层逻辑会发生什么变化？

Anthropic 在 2026 年初发布了一份趋势报告，试图回答这个问题。报告总结了 8 个趋势，涉及开发流程、智能体协作、组织形态和安全架构。这篇文章是对这份报告的一次逐层拆解——不仅仅是复述，更重要的是用跨学科的视角来检验这些趋势到底站不站得住脚。

在正式展开之前，有一个数字值得先记住：开发者在约 60% 的工作中使用 AI，但只能把 0–20% 的任务完全委派给 AI。 这个数字几乎决定了所有落地策略的方向——2026 年的核心挑战不是“要不要用 AI”，而是“如何把人与 AI 的协作系统化”。

一、从流水线到反馈回路：SDLC 的范式转换

1.1 一次堪比 GUI 出现的变革

报告把 agentic coding 对软件开发流程的影响，类比为图形用户界面（GUI）对计算机交互的影响——不是小修小补，而是交互层面的整体重构。

传统的软件开发生命周期（SDLC）是一条线性流水线：需求 → 设计 → 编码 → 测试 → 部署 → 运维。即便敏捷方法论把它缩短成了两周一个冲刺，底层逻辑仍然是“人来写代码，然后推进到下一个环节”。

报告预测的图景是：agent 驱动实现 + 自动测试 + 内联文档，会把周期从“数周”压缩到“数小时”。更关键的是，监控数据会直接回流到迭代入口——不再是“先发布再观察”，而是“持续发布、持续观测、持续调整”。线性流水线变成了高频反馈回路。

这听起来像是“一切都变快了”。但深入想一步，你会发现事情没那么简单。

1.2 利特尔定律的警告

运筹学里有一条基本定律，叫利特尔定律（Little’s Law）。它说的是：在一个稳定的排队系统里，队列中的平均项目数 = 到达率 × 平均等待时间。

翻译成软件工程的语言：如果你的代码产出速率翻了 5 倍（agent 帮你写），但你的 review 和验收速率没有跟上，那排队等待 review 的 PR 数量就会翻 5 倍。Lead time 不但不会缩短，反而可能变长。

这不是理论假设。任何做过大规模团队管理的工程经理都见过这个现象：开发阶段越快，瓶颈越容易转移到 code review、QA 和产品验收上。

我把这种现象概括为三种“新延迟”：

意图延迟： 需求和约束表达不清，agent 做得很快但做错了。这就像你对出租车司机说“去那个路口附近”——他开得飞快，但不是你想去的地方。

验收延迟： 人类 review 和审批的带宽没有跟上产出爆炸。上游的水龙头开大了，但下游的管道还是老粗细。

集成延迟： 多条变更并行落地时，冲突和回归问题急剧增加。这就是分布式系统里的“脑裂问题”在代码管理上的投影。

1.3 验收必须变成系统

那怎么办？

答案是：把验收标准前置成可执行的检查。

不管你叫它 TDD、contract tests、policy-as-code 还是什么别的，本质都是同一件事——把“口头标准”变成“机器可以验证的门禁”。这样 agent 的产出在落地之前就能被自动过滤，人类只需要处理那些机器无法判断的边界情况。

报告本身也提到了这个方向：“监控直接回流到快速迭代。”但我想把它说得更尖锐一点：在 agentic coding 时代，没有可执行验收标准的团队，会比没有 agent 的团队更慢。 因为你用 agent 制造了大量产出，但没有能力消化它。

二、从单打独斗到智能体“战队”

2.1 纺织业的第二次革命

让我用一个历史类比来说明多智能体协作的本质。

18 世纪的英国纺织业经历过一次著名的效率瓶颈。1764 年，詹姆斯·哈格里夫斯发明了珍妮纺纱机，纺纱速度一下子提高了 8 倍。但织布机的速度没变。结果是：纱线堆积如山，织工忙得要死，整个产业链反而失衡了。

直到 1785 年，埃德蒙·卡特赖特发明了动力织布机，纺和织的速度才重新匹配。再后来，工厂制度把纺纱、织布、染色、裁剪等环节组织成流水线，每个环节由专门的工人和机器负责，整个系统才真正高效运转。

多智能体协作要解决的，本质上就是这个问题——不是让单个 agent 跑得更快，而是让多个专业化的 agent 组成一条高效的流水线。

2.2 报告怎么说

报告预测 2026 年组织会更多使用“多个智能体协同”来处理复杂度。这需要新的工程能力：任务拆解、智能体专长分工、协调协议，以及能展示多并发会话状态的开发环境。

它还给了一个具体案例：Fountain 用 Claude 的分层多智能体编排来处理招聘流程（筛选、入职、转化等环节），把“新仓配中心完整招满人”的时间从一周以上降到 72 小时以内。

2.3 分布式系统的经验

如果你是一个做过微服务架构的工程师，你会觉得这一切似曾相识。

从单体服务拆分为微服务，你获得了可伸缩性和独立部署能力，但你也引入了一整套新的复杂度：服务发现、负载均衡、分布式事务、数据一致性、链路追踪、熔断降级。这些问题不是“可能会遇到”，而是“一定会遇到”。

多智能体编排面临完全相同的挑战。每个 agent 就是一个微服务——它有独立的上下文、独立的职责、独立的输入输出。当多个 agent 并行工作时，你需要：

接口契约（agent 之间如何传递信息？格式和语义是否明确？）
变更隔离（一个 agent 的错误如何防止扩散到整个系统？）
自动集成测试（多个 agent 的产出合在一起之后，整体是否还能工作？）
冲突解决（两个 agent 修改了同一个文件怎么办？）

康威定律说：系统的架构会映射组织的沟通结构。在多智能体时代，我们需要加一句：智能体系统的架构会映射你的编排协议的质量。 协议越清晰，系统越可靠；协议越模糊，灾难越近。

三、当 Agent 能跑好几天

3.1 从工具到系统

如果说多智能体协作改变的是“空间维度”（并行），那长跑智能体改变的就是“时间维度”（持续）。

报告预测 agent 的任务跨度会从分钟 → 小时 → 天级甚至周级。在最少人类介入的情况下，构建完整的应用或系统。人类主要在关键节点提供战略监督。

它还强调，长跑 agent 必须面对“软件开发的脏活现实”：持续规划、迭代、从失败恢复、跨多会话保持状态一致。这不是一个可以在理想条件下运行的系统——它必须在充满意外的真实世界里生存。

3.2 赫伯特·西蒙的预言

诺贝尔经济学奖得主赫伯特·西蒙在 1969 年的《人工科学》中提出了一个至今仍被低估的洞察：复杂系统要在不确定的环境中存活，必须具备层级结构（hierarchy），且每一层都能在自身层面上做出有意义的决策。

长跑 agent 正在逼近这个描述。一个跑几天的 agent 不是一个简单的“脚本”——它要做规划（决定接下来该做什么）、执行（写代码、跑测试）、恢复（失败了怎么回退）、记忆（记住之前做了什么和为什么）。这本质上就是西蒙所说的“层级化的自适应系统”。

3.3 你需要一个 Agent 运行平台

当 agent 能跑几天，你面对的就不再是“写代码工具”，而是一个持续运行的生产系统。这意味着你需要像管理一个服务一样管理它：

可观测性： agent 现在在做什么？进度如何？有没有卡住？

成本控制： 这次运行消耗了多少 token？多少 API 调用？是否在预算内？

故障隔离： 一次错误决策产生的影响范围是什么？如何防止级联失败？

权限管理： agent 能访问哪些资源？能做哪些操作？谁授权的？

审计追踪： 为什么做了这个决策？依据是什么？能不能事后追溯？

我把这个系统叫做 Agent Runtime。它在概念上类似于 CI/CD 平台，但职责更广。未来的软件团队很可能会像管理 CI/CD 一样管理它——谁能启动长跑任务？额度是多少？失败重试策略是什么？产出的代码如何被分桶 review？风险变更如何自动升级给人？

3.4 被释放的可能性

当然，长跑 agent 不只带来治理挑战，也释放了巨大的可能性。

报告提到：过去不划算的项目变得可行，积累多年的技术债可能被 agent 通过 backlog 系统性消除。创业者甚至能在“几天”而非“几个月”从想法到部署。

这让人想起克莱顿·克里斯坦森在《创新者的窘境》中提出的概念：技术进步会改变“够好”的门槛。 当数码相机的质量“够好”了，胶片行业就崩塌了——不是因为数码在画质上超过了胶片，而是因为“够好”加上“便宜且方便”就够了。

长跑 agent 可能以类似的方式改变软件行业的竞争格局：它让“够好的软件”变得极其便宜和快速，从而把竞争的焦点从“谁能写出来”转移到“谁的方向更准、谁的质量更可靠、谁的迭代更快”。

四、AI 审 AI：一个必须但危险的方向

4.1 信息过载的老问题

信息过载不是新问题。赫伯特·西蒙早在 1971 年就指出：“信息的丰富意味着注意力的贫乏。”

在 agentic coding 的语境下，这个问题以一种新的形式出现：agent 产出大量代码，人类的 review 注意力成为系统瓶颈。报告预测 2026 年的解决方案是——用 AI 来 review AI 的产出。 Agent 学会“什么时候该求助”，AI 负责做第一轮质量筛查（安全漏洞、架构一致性、代码质量），只把真正需要人类判断的部分标注出来。

这个方向是对的。当上游产出增长了数倍，如果下游还完全依赖人力，系统一定会崩溃。

但它有一个结构性风险。

4.2 同源错误：一种被低估的风险

想象一下：你写了一份报告，然后让你的同班同学帮你审阅。他也是用同样的教材学的、听同一个老师的课、做的同一批习题。他很大概率会跟你犯一样的错——你们的知识盲区高度重叠。

这就是“同源错误”的本质：生成和审查如果来自同类模型、同类训练数据、同类推理模式，它们出错的方式也会高度相关。 一个模型忽略了某个边界条件，另一个来自类似训练分布的模型很可能也会忽略。

统计学里有一个相关的概念叫多重共线性——当多个预测变量高度相关时，它们看起来提供了“多个独立验证”，但实际上只提供了“一个验证的多个复制品”。AI 审 AI 如果模型同源，就面临同样的风险。

4.3 独立证据链

怎么对冲同源错误？答案是构建独立证据链。

所谓“独立”，是指验证方法在逻辑上独立于生成方法。AI 说“这段代码没问题”不算证据，测试跑过了才算。AI 说“没有安全漏洞”不算证据，扫描器确认了才算。AI 说“不会有回归”不算证据，灰度流量验证了才算。

具体来说：

自动化测试： 单元测试、集成测试、端到端测试、属性测试
静态分析： 类型检查、lint 规则、复杂度检查
依赖审计： 安全漏洞扫描、许可证合规检查
运行时验证： 监控告警、灰度发布、自动回滚

AI 可以帮你写这些证据链——事实上这是它的最佳用途之一。但最终，你必须让系统用事实约束智能体，而不是让一个智能体用“判断”约束另一个智能体。

卡尔·波普尔的科学哲学在这里是有用的：一个假说的价值不在于它被多少人（或多少个 AI）认同，而在于它经受了多少独立的否证尝试。 代码的可靠性也是如此。

五、民主化的两面

5.1 技能壁垒的坍塌

报告预测 agentic coding 会扩展到越来越多的“新表面”和“新用户”。

一方面是语言壁垒下降：COBOL、Fortran 等遗留语言也会得到 agent 支持，帮助维护旧系统。另一方面是角色壁垒下降：网络安全、运维、设计、数据等非传统开发者也能使用代码工具。更远一步，销售、市场、法务、运营等完全非技术的团队，也能用 agent 直接构建自动化方案。

Zapier 的案例很有代表性：他们推动全员使用 agent，设计团队能在客户访谈中实时做原型，组织 AI 采用率达到 89%，内部部署了 800 多个 AI agent。Anthropic 自家法务团队也用 Claude 把市场审核从 2–3 天缩短到 24 小时。

报告称之为“人人更 full-stack”：原本“会写代码/不会写代码”的边界变得可渗透。

5.2 Shadow IT 的教训

这里有一个历史教训值得注意。

2000 年代末，云计算和 SaaS 工具兴起之后，企业里出现了一个现象叫 Shadow IT——业务部门绕过 IT 部门，自己购买和使用各种云服务。销售团队用 Salesforce，市场团队用 HubSpot，财务团队用各种 SaaS 报表工具——每个部门都觉得自己解决了问题，但 IT 部门完全不知道有多少系统在运行、数据存在哪里、安全状况如何。

结果是：数据孤岛、安全漏洞、合规风险、维护成本飙升。Gartner 在 2017 年的报告中估计，Shadow IT 占企业 IT 支出的 30–40%。

Agentic coding 的“民主化”如果不加治理，会重演同样的故事——只不过更快、更猛烈。以前的 Shadow IT 只是“买了一个 SaaS”，现在的 Shadow IT 可能是“写了一个能访问客户数据库的自动化脚本”。

5.3 能力下放，风险上收

好的路径是什么？

企业提供统一平台：身份认证、权限管理、数据访问控制、审计日志、模板库、发布管道。业务团队在这个平台的护栏内自由创新。

坏的路径是：各部门各搞一套，数据权限混乱，没人负责维护，安全漏洞藏在各个角落。

分叉点在于一个原则：把能力下放，把风险上收。 能力让更多人能做事；风险必须由集中化的平台来兜底。

这也意味着工程团队的角色会发生转变——从“交付中心”变成“平台与治理中心”。它的价值不再是帮业务团队写代码，而是提供可复用的组件、安全边界、监控能力和发布管道。业务团队负责“最后一公里”；工程团队负责“高速公路 + 交规”。

六、更多产出的二阶效应

6.1 不只是“更快”，而是“更多”

报告有一个容易被忽略但非常重要的发现：生产率的提升主要来自“做了更多”，而不仅是“同样的事更快”。

具体数据是：约 27% 的 AI 辅助工作属于“否则根本不会做”的事情——扩展项目、做交互面板、探索性工作、修各种小痛点。TELUS 的团队创建了 13000 多个定制 AI 解决方案，同时工程代码交付提速 30%，节省 50 万小时以上。

27% 这个数字意味着：以前 ROI 不够高的体验优化、内部工具、质量改进、探索性实验，现在突然都值得做了。

6.2 杰文斯悖论的回声

这里有一个经济学上的经典现象值得警惕。

1865 年，英国经济学家杰文斯发现了一个反直觉的规律：蒸汽机效率越高，煤炭消耗反而越多——因为效率提升导致使用成本降低，更多场景开始使用蒸汽机，总消耗不降反升。这就是杰文斯悖论。

在 agentic coding 的语境下，杰文斯悖论的含义是：写代码的成本越低，写出来的代码越多——系统复杂度也越高。

每个单独的“顺手加个功能”都是合理的。但累积起来，你的系统会越来越庞大、越来越复杂，直到超出你的测试覆盖、监控能力和团队理解力所能支撑的水平。

6.3 产出治理

所以你需要“产出治理”——这是一个听起来很官僚但实际上至关重要的能力：

给团队设定变更预算。 不是限制产出，而是确保每一批变更都经过了充分验证。就像一个银行不会因为“反正贷款利率低”就无限放贷一样。

用可量化指标守住质量底线。 缺陷率、回滚率、变更失败率、上线 lead time、线上事故率——这些指标的作用是当“更多产出”开始损害系统质量时，及时发出警报。

定期评估系统复杂度。 系统有多少个服务？多少个依赖？新成员上手需要多长时间？这些问题的答案如果在快速恶化，说明产出速度已经超出了你的治理能力。

七、安全：把 Agent 当作一种新身份

7.1 双刃剑

报告指出 agentic coding 在安全上是“双向改变”：一方面，任何工程师都能借助 AI 做安全审查和加固；另一方面，攻击者也能用同样的能力规模化攻击。

这并不新鲜——每一次技术民主化都伴随着“武器对等化”。火药让城堡不再安全，印刷术让信息垄断不再可能，互联网让大规模信息操纵变得廉价。agentic coding 会让代码级的攻击和防御都变得更快、更自动化。

7.2 Agent 是一种新的“身份主体”

但报告没有点透的一层是：大多数组织仍然把 agent 当作“更聪明的 IDE 插件”。

一个 coding agent 不只是帮你补全代码。它能调用工具、读写文件系统、触达数据库、触发部署流水线。它是一个有自主行为能力的“身份主体”（principal），就像一个新入职的员工一样——它需要有自己的身份、权限、审计记录和责任边界。

在计算机安全领域，有一个经典原则叫最小权限原则（Principle of Least Privilege），由 Jerome Saltzer 和 Michael Schroeder 在 1975 年提出：每一个主体只应该被赋予完成其任务所需的最小权限集。

把这个原则应用到 agent 上，你需要回答一系列问题：

这个 agent 能访问哪些仓库？哪些环境？哪些数据？
密钥和敏感信息如何隔离？
它能不能直接部署到生产？如果能，门禁和回滚如何设计？
发生错误或滥用时，责任归属和追踪怎么做？

如果你的安全架构里没有“agent”这个角色类型，你就是在用 2020 年的安全模型应对 2026 年的威胁面。

八、把一切收束：一个三层体系

8.1 报告的四个优先级

报告最后把建议压缩成 4 个优先方向：

掌握多智能体协作以处理单智能体无法覆盖的复杂度
用 AI 自动化 review 来扩展监督，把人类注意力聚焦在关键处
把 agentic coding 扩展到工程以外，赋能跨部门领域专家
从最早期就把安全架构嵌入 agent 系统设计

这四个方向都对。但它们需要一个共同的底座才能落地。

8.2 Agentic Engineering OS

如果要把这份报告翻译成一个可执行的组织框架，我会这样描述它：

意图层（Intent Layer）： 这是整个系统的输入端。PRD、技术方案、验收标准、风险边界——尽量结构化、可复用、可被机器解析。这一层的质量直接决定了下游所有产出的质量。垃圾进垃圾出——这条朴素的工程真理在 agent 时代被放大了一百倍，因为 agent 会以极高的效率把你模糊的需求变成大量模糊的代码。

执行层（Execution Layer）： 这是 agent 的主战场。多智能体编排、工具调用、长跑任务管理。这一层的核心指标是产出的速度和覆盖面。报告中的大部分趋势——多智能体、长跑 agent、非工程人群的扩展——都发生在这一层。

保证层（Assurance Layer）： 这是整个系统的安全网。自动化测试、静态分析、监控告警、审计追踪、安全门禁、灰度发布、回滚机制、事后复盘。这一层的作用是用事实约束执行层的产出——不是让人相信 agent 做得对，而是让系统证明 agent 做得对。

三层之间的关系是：意图层决定方向，执行层负责产出，保证层确保可信。 三层都强的团队，才能真正吃到 agentic coding 的红利——周期压缩、产出放大、跨部门扩散与安全内建。

8.3 一个类比

如果你觉得这个框架太抽象，可以把它想象成一个现代化的自动驾驶系统。

意图层是导航系统——你输入目的地，它规划路线。路线越精确，抵达的概率越高。

执行层是发动机和传动系统——它负责让车跑起来。多智能体就像多缸发动机，并行出力。

保证层是刹车系统、安全气囊和车道保持——它们不创造速度，但它们决定了你能安全地使用多大的速度。

没有刹车系统的跑车，油门越大，死得越快。 这就是为什么“保证层”不是锦上添花，而是整个体系的生死线。

结语：什么东西变贵了

每一次技术变革都会改变“什么东西贵、什么东西便宜”的相对价格。

蒸汽机让体力变便宜，让能源管理变贵。印刷术让信息传播变便宜，让注意力变贵。互联网让分发变便宜，让信任变贵。

Agentic coding 让代码产出变便宜了。那什么东西变贵了？

正确的方向变贵了——因为 agent 会以极高的效率执行你的意图，如果意图是错的，你会极其高效地制造垃圾。

可验证的规格变贵了——因为模糊的需求会被 agent 变成大量模糊的代码，而你没有足够的人力去逐一检查。

可扩展的质量控制变贵了——因为产出量增长了数倍，但你的测试、监控和审计能力不会自动跟上。

可审计的安全边界变贵了——因为 agent 不再是被动工具，而是能主动行动的身份主体。

总结成一句话：代码不再稀缺之后，“可靠的变更”变成了真正的稀缺品。

这份报告给出的 8 个趋势，归根到底都在回答同一个问题：在代码不再稀缺的世界里，如何系统性地生产“可靠的变更”？

答案不是更强的模型——模型会继续进步，但那是 AI 公司的事。答案是更好的协作系统——把意图说清楚、让 agent 去执行、让保证层来兜底、让人类做最终裁决。

谁先把这套系统跑起来，谁就在新规则下领先。这不是预言，这是工程。